自动数据收集方案的扩散和传感器的进步正在增加我们能够实时监控的数据量。但是,鉴于高注册成本和质量检查所需的时间,数据通常以未标记的形式获得。这正在促进使用主动学习来开发软传感器和预测模型。在生产中,通过评估未标记数据的信息内容来收集标签,而不是进行随机检查以获取产品信息。文献中已经提出了一些有关回归的查询策略框架,但大多数重点都专门用于基于静态池的场景。在这项工作中,我们为基于流的方案提出了一种新的策略,在该方案中,将实例顺序提供给学习者,该实例必须立即决定是否执行质量检查以获取标签或丢弃实例。该方法受到最佳实验设计理论的启发,决策过程的迭代方面是通过对未标记数据点的信息设定阈值来解决的。使用数值模拟和田纳西州伊士曼工艺模拟器评估所提出的方法。结果证实,选择提出的算法建议的示例可以更快地减少预测误差。
translated by 谷歌翻译